Proyecto Final Talento TECH

Inteligencia Artificial

Author

George Vega

Published

04-2025

Code
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import plotly.express as pex
import plotly.graph_objects as go
import plotly.io as pio
import seaborn as sb
import plotly.figure_factory as ff

Información Personal

Información personal

Se incluyen 10 varibles incluyendo la información personal del colaborador, entre las cuales se incluye identificación, género, etnia, entre otros.

VARIABLE DESCRIPCION ITEMS
1 ESTU_TIPODOCUMENTO Documento CC – Cédula de ciudadanía
CE – Cédula extranjera
CR – Certificado registraduría
CCB – Certificado de cabildo
NES – Número establecido por la SE
PC – Pasaporte colombiano
PE – Pasaporte extranjero
RC – Registro civil
PEP– Permiso Especial de
Permanencia
NUIP - Número único de
Identificación Persona
V - Por verificar
TI – Tarjeta de identidad
2 ESTU_NACIONALIDAD Nacionalidad Nacionalidad
3 ESTU_GENERO Genero F - Femenino
M - Masculino
4 ESTU_FECHANACIMIENTO Fecha Nacimiento [DD/MM/AAAA]
5 PERIODO Periodo Periodo del examen
6 ESTU_CONSECUTIVO Consecutivo Id público del estudiante en Saber Pro
7 ESTU_ESTUDIANTE Estudiante ESTUDIANTE
INDIVIDUAL
8 ESTU_TIENEETNIA Tiene etnia ¿Pertenece usted a un grupo
étnico minoritario?
SI
NO
9 ESTU_PAIS_RESIDE Pais residencia Pais de residencia
10 ESTU_ETNIA Etnia ¿Cuál es el grupo étnico minoritario al que pertenece?
Arhuaco
Cancuamo
Comunidad afrodescendiente
Comunidades Rom (Gitanas)
Cubeo
Emberá
Guambiano
Huitoto
Inga
Paez
Palenquero
Pasto
Pijao
Raizal
Sikuani
Tucano
Wayúu
Zenú
Otro grupo étnico minoritario
Ninguno
Code
values=df2['ESTU_GENERO'].value_counts()
labels=["Femenino","Masculino"]
fig0=go.Figure(data=[go.Pie(                             # fuente de datos
          values=values,
          labels=labels,
          textinfo='label+percent+value',           # columna x
          insidetextorientation='radial'
                            )])
fig0=fig0.update_layout(legend=dict(
        x=0.35,
        y=-0.15,
        traceorder="normal",
        font=dict(
            family="sans-serif",
            size=12,
            color="black"
        ),
    ),
    margin=dict(t=5, b=0, l=0, r=0),
    #height=250, 
    width=200,
                      showlegend=False)
fig0.show()

fig1=pex.scatter(df2                                # fuente de datos
          , x="PUNT_MATEMATICAS"               # columna x
          , y="PUNT_LECTURA_CRITICA"           # columna y
          , width = 600, height=400            # tamaño del gráfico
          , hover_data= ["ESTU_GENERO"]        # información a despelegar de manera emergente al pasar el cursor
          , color="ESTU_GENERO"  # color de los puntos
          #, title = "Energía consumida por el sector Comercial primario vs Energía generada por fuentes nucleares"
          ,labels= { "PUNT_MATEMATICAS" : "Puntaje matematicas", "PUNT_LECTURA_CRITICA": "Puntaje lectura critica"}
          ,marginal_x = "box"
          ,marginal_y = "box"
          # ,range_x = [20000, 40000]
            )

fig1=fig1.update_layout(legend=dict(
    yanchor="bottom",
    y=-0.2,
    xanchor="right",
    x=0.98,
    traceorder="normal",
    font=dict(
        family="sans-serif",
        size=12,
        color="black"
    ),),
    margin=dict(t=5, b=0, l=0, r=0)
)

fig1.show()
Figure 1: Analisis por genero
Figure 2: Analisis por genero
Code
values2=df2['ESTU_ETNIA'].value_counts()
print(values2)
## ESTU_ETNIA
## Ninguno                          365782
## Comunidad afrodescendiente        13009
## Zenú                               2115
## Otro grupo étnico minoritario      1895
## Wayúu                              1379
## Pasto                              1190
## Paez                                981
## Emberá                              507
## Pijao                               438
## Raizal                              278
## Inga                                141
## Cancuamo                            132
## Sikuani                             110
## Guambiano                            94
## Cubeo                                72
## Palenquero                           55
## Arhuaco                              54
## Huitoto                              45
## Tucano                               24
## Comunidades Rom (Gitanas)             9
## Name: count, dtype: int64
print("Total=                          ",values2.sum())
## Total=                           388310

Analisis por etnia

Code
## ## Versión interactiva del diagrama de dispersión
pex.scatter(df2                                # fuente de datos
          , x="PUNT_MATEMATICAS"               # columna x
          , y="PUNT_LECTURA_CRITICA"           # columna y
          , width = 800, height=500            # tamaño del gráfico
          , hover_data= ["ESTU_ETNIA"]        # información a despelegar de manera emergente al pasar el cursor
          , color="ESTU_ETNIA"  # color de los puntos
          #, title = "Energía consumida por el sector Comercial primario vs Energía generada por fuentes nucleares"
          ,labels= { "PUNT_MATEMATICAS" : "Puntaje matematicas", "PUNT_LECTURA_CRITICA": "Puntaje lectura critica"}
          ,marginal_x = "box"
          ,marginal_y = "box"
          # ,range_x = [20000, 40000]
            )